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摘 要 : 针对 现 有 大 数据 分 类 方法 难以 满足 大 数据 应 用 中 时 间 和 储存 空间 的 限制 ， 提 出 了 一 种 基于 Apache Spark 框架 
的 大 数据 并 行 多 标签 民 最 近邻 分 类 器 设计 方法 。 为 了 通过 使 用 其 他 内 存 操作 来 减轻 现 有 MapReduce 方案 的 成 本 消耗 ， 


首先 ， 结 合 Apache Spark Es 区 ;然后 在 Map 阶段 找到 待 预测 m K 
近邻 ， 进 一 步 在 reduce 阶段 根据 map 阶段 的 结果 确定 最 终 的 K 近邻 ; 最 后 并 行 地 对 近邻 的 标签 集合 进行 聚合 ， 


最 大 化 后 验 概率 输出 待 预测 样本 的 目标 标签 集合 。 在 PokerHand 等 四 个 大 数据 分 类 数据 集 上 进行 实验 ， 提 出 方法 取得 
了 较 低 的 汉 明 损失 ， 证 明了 其 有 效 性 

关键 词 : 分 类 处 理 ; Apache Spark; 并 行 机 制 ; 数据 挖掘; 汉 明 损失 ; K RAR 

中 图 分 类 号 : TP391 doi: 10.3969/j.issn.1001-3695.2018.05.0296 


Network big data classification processing method based on 
Spark and distributed KNN classifier 


Cao Yu!, Wang Nan? 3, Xu Zhichao? 
(1. Dept. of Computer, Harbin Finance University, Harbin 150030, China; 2. Institute of Management & Credit Jilin 
University of Finance & Economics, Changchun 130117, China; 3. School of Computing Jilin University, Changchun 130012, 
China) 


Abstract: Aiming at the limitation that the existing big data classification methods can not meet the time and storage space in 
big data applications, a design method of big data parallel multi-label k-nearest neighbor classifier based on Apache Spark 
framework is proposed. In order to reduce the cost of the existing MapReduce scheme by using other memory operations, first, 
the training set is divided into several partitions in conjunction with the parallel mechanism of the Apache Spark framework. 
Then in the Map stage, the K nearest neighbors of each partition of the sample to be predicted are found, and in the Reduce 
phase, the final K nearest neighbors are determined according to the results of the Map phase. Finally, the neighboring tag sets 
are aggregated in parallel, and the target tag set of the sample to be predicted is output by maximizing the posterior probability. 
Experiments were conducted on PokerHand et al. 's four big data classification datasets. The proposed method achieved a 
lower Hamming loss and proved its effectiveness. 
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P 具 能 够 利用 这 些 数 据 。K 近邻 算法 (区 -nearest neighbor 

0 Sla algorithm, KNN EHEN BAARS, AORTA 
在 过 去 几 年 中 ， 大 数据 已 成 为 一 个 焦点 词汇 ， 大 规模 的 信 “类 和 回归 。 

息 处 理 已 成 为 一 项 必要 是 关键 的 任务 -al。 技 术 的 不 断 革新 以 及 一 些 研究 在 MapReduce 过 程 中 引入 了 KNN 分 类 器 ， 但 他 

消费 方式 的 改变 ， 带 来 了 商业 的 信息 化 发 展 。 而 商业 的 信息 化 们 的 目的 不 是 要 执行 精确 的 KNN 分 类 ， 而 是 使 用 部 分 KNN 


发 展 导致 了 可 用 数据 量 的 严重 增加 。 男 一 方面 ， 社 交 媒 体 ， 生 (KNN 应 用 于 训练 数据 的 子 集 ) 对 大 数据 集 进行 聚 类 。 文献 [5] 
物 医 学 和 娱乐 活动 每 天 同样 产生 大 量 数据 ， 如 果 没 有 适当 的 知 。 提出 了 一 种 新 颖 的 方法 ， 将 KNN 和 主 成 分 分 析 相 结合 来 对 大 


识 提取 过 程 ， 这 些 数据 是 无 用 的 。 因 此 和 迫切 需要 一 种 便捷 的 工 ”数据 得 


进行 聚 类 。 文 献 [6] 提 出 一 种 方法 ， 该 方法 有 两 个 不 同 的 
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阶段 ,在 第 一 阶段 使 用 K-means 来 分 隔 整个 数据 集 的 不 同 部 分 ， 这 个 框架 的 普及 是 由 Apache Hadoop 的 实现 引起 的 ;开放 
第 二 阶段 计算 每 个 分 组 中 的 KNN 来 提供 近似 的 结果 。 还 有 一 ”软件 社区 与 许多 私营 公司 共同 努力 为 大 数据 预 处 理 提 供 广 泛 可 
些 研究 没有 针对 分 类 或 回归 任务 , 而 是 提出 在 MapReduce 中 执 ”用 的 软件 堆栈 。Hadoop 生态 系统 非常 广泛 , 但 主要 是 两 个 主要 
ff KNN 进行 查询 的 分 布 式 计算 。 例 如 ， 文 献 [7] 提 出 在 两 阶段 组 件 : 通用 MapReduce 和 Hadoop 分 布 式 文件 系统 (HDFS)。 它 
MapReduce 过 程 中 应 用 KNN-join〔 精 确 或 近似 ) 查 询 ;文献 [8] 。”” 们 允许 部 署 廉价 的 大 型 计算 机 集群 作为 强大 的 执行 引擎 以 及 可 


针对 基于 KNN 的 图 像 分 类 提出 了 和 迭代 Hadoop MapReduce 过 靠 和 容错 的 分 布 式 数据 存储 。 
程 。 然 而 ， 这 种 方法 为 每 个 单独 的 测试 实例 近代 执行 1.2 Spark 框架 

MapReduce ， 造 成 了 较 大 的 时 间 消 耗 。 文 献 [9] 提 出 了 一 种 Spark 框架 可 以 被 看 做 是 下 一 代 分 布 式 计算 框架 ， 并 且 是 
Hadoop MapReduce 过 程 , 可 以 将 大 量 测试 样本 进行 分 类 , 降低 MapReduce 的 扩展 03。 它 们 之 闻 的 关键 区 别 在 于 Spark 为 正在 


了 Hadoop 的 启动 成 本 。 然 而 该 方法 的 分 类 准确 性 较 低 ， 还 有 处 理 的 数据 定义 了 一 个 新 的 抽象 ， 称 为 弹性 分 布 式 数据 集 
待 进一步 完善 。 RDD); 这 使 得 从 业者 可 以 定义 额外 的 数据 操作 ， 而 不 必 严 格 
在 本 文中 ,提出 了 一 种 基于 Apache Spark 框架 的 大 数据 并 遵守 Map 和 Reduce 功能 。 但 是 , MapReduce 范例 仍然 是 Spark 


行 多 标签 K- 最 近邻 分 类 器 设计 方法 。 在 本 文 的 实现 中 , 目标 是 ”平台 的 核心 ， 因 为 大 部 分 计算 都 遵循 相同 的 模式 ， 即 将 几 个 函 
利用 Spark 提供 的 灵活 性 ， 通 过 使 用 其 他 内 存 操作 来 减轻 现 有 ” 数 单独 应 用 于 每 个 数据 单元 ， 然 后 通过 网 络 混合 进行 组 合 。 

MapReduce 方案 的 成 本 消耗 。 为 了 管理 巨大 的 测试 集 ， 根 据 内 Spark 成 为 分 布 式 数据 处 理 实际 标准 的 主要 动机 依赖 于 体 
存 限制 ， 将 可 能 的 测试 示例 的 最 大 数量 用 于 最 小 化 迭代 次 数 。 系 结构 的 差异 : 虽然 Hadoop MR 依靠 硬盘 驱动 器 来 获取 每 个 操 
在 每 次 迭代 中 ， 将 应 用 KNN MapReduce 进程 ， 在 map 阶段 找 。“ 作 之 间 的 中 间 数 据 ， 但 Spark 专注 于 更 快 的 主 内 存 来 维护 其 数 
到 待 预测 样本 每 个 分 区 的 K 近邻 , 并 在 reduce 阶段 确定 最 终 的 。 据 结构 。 这 人 允许 定义 更 复杂 的 执行 路 径 以 及 增加 对 和 迭代 过 程 的 


K 近邻 。 最 后 并 行 地 对 近邻 的 标签 集合 进行 聚合 。 支持 。 图 2 展示 了 Spark 算 子 和 数据 空间 。 

海量 数据 集 的 分 布 式 处 理 d a 

1.1 MapReduce 框架 - Hive、Hbase 等 和 数据 类 型 
MapReduce(MR) 框 架 是 为 数据 的 并 行 计算 提供 高 度 可 扩 EA 

展 和 灵活 的 框架 ， 主 要 是 是 为 了 应 对 日 益 增多 的 数字 数据 二 

(0-121, 在 过 去 的 几 年 里 , 数据 的 生成 和 存储 能 力 已 经 增长 到 PB RODY 

级 ， 这 是 硬件 和 新 型 处 理 技术 更 成 熟 的 结果 。MR 的 主要 潜力 Tranformatiol 

是 它 提出 的 计算 抽象 ， 其 中 整个 处 理 被 划分 成 更 小 的 任务 类 型 | Ju. 

Map 和 Reduce， 沿 着 集群 均匀 分 布 和 处 理 。 从 业者 只 需 负责 提 已 光一 一 一 : 

供 这 两 个 功能 ， 避 免 将 处 理 适 配 到 群集 的 底层 架构 或 数据 的 性 

质 .该 框架 为 并 行 数 据 处 理 提供 了 一 个 高 度 可 扩展 的 容错 环境 。 Cache AT 
在 MR 工作 流程 中 管理 的 数据 由 ( ley value ) 形 式 的 键 - 值 图 2 Spark 算 子 和 数据 空间 

对 表示 。 每 个 映射 任务 的 初始 输入 通常 作为 原始 数据 的 输入 分 最 近 基 于 云 计算 的 技术 为 人 们 提供 了 处 理 此 问题 的 理想 环 

DX, 与 任意 键 相关 联 。 每 个 Map 任务 通过 对 其 应 用 一 个 定义 的 。” 境 。MapReduce 框架 及 其 在 Hadoop 中 的 开源 实现 是 基于 数据 


函数 来 处 理 其 大 块 数据 , 这 产生 了 许多 新 的 中 间 key-value 输出 。” 局 部 性 原理 处 理 数据 密集 型 应 用 的 工具 ， 并 且 己 在 数据 挖掘 中 
对 。 系 统 通 过 相应 的 键 收集 、 组 合 和 排序 这 些 中 间 输 出 对 ， 广泛 传播 。 但 是 , 研究 人 员 发 现 Hadoop Mapreduce 在 设计 可 伸 
发 送 与 输入 数据 共享 相同 键 的 匹配 对 。 该 输入 由 一 个 由 公用 ” 缩 机 器 学 习 工 具 方 面 存在 一 些 限制 。 对 于 跨 多 个 步 又 共享 数据 
key 和 包含 关联 值 的 列表 组 成 。 然 后 ， 执 行 Reduce H; 结果 ”的 应 用 程序 〈 包 括 迭 代 算 法 或 交互 式 查 询 ) ，MapReduce 效率 
会 产生 最 终 和 输出， 通常 由 新 格式 化 的 键 、 值 对 组 成 。 图 1 显示 不 高 。 最 近 出 现 了 多 个 用 于 大 规模 数据 处 理 的 平台 来 克服 
了 MR 程序 的 详细 流程 。 Hadoop MapReduce 的 问题 。 其 中 Spark 已 成 为 大 数据 中 执行 更 
快 分 布 式 计算 的 最 灵活 和 最 强大 的 引擎 之 一 。 该 平台 允许 用 户 
程序 将 数据 加 载 到 内 存 中 并 反复 查询 ， 使 其 更 适合 在 线 ， 和 迭代 
或 数据 流 算法 。 


EDS 
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2 KNN 分 类 器 


KNN 算法 是 一 种 非 参数 方法 ， 可 用 于 分 类 和 回归 任务 0 。 
图 1 MR 流 的 图 形 表示 KNN 算法 的 表示 如 下 : 
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发 的 可 扩展 性 。 处 理 大 规模 数据 的 主要 问题 是 : 

a) 运 行 时 间 。 查 找 单个 测试 实例 的 最 近邻 居 训 练 样本 的 复 
杂 度 为 O((m.D)) ,其 中 是 训练 实例 的 数量 , p 是 特征 的 数量 。 
其 中 ，x 表示 第 p 个 样本 的 第 个 特征 的 值 。 样 本 属于 类 别 于 它 需 要 对 计算 距离 进行 排序 ， 所 以 在 找到 4 个 邻居 时 ， 这 
在 计算 上 更 复杂 ， 因 此 需要 额外 的 复杂 度 O(nlog (n)) 。 最 后 ， 

个 过 程 需要 重复 每 个 测试 例子 。 
知 的 ， 而 这 一 点 对 于 Ts 集合 是 未 知 的 。 b) 内 存 消耗 。 为 了 快速 计算 距离 ,KNN 模型 要 求 将 训练 数 

对 于 包含 在 mr 集合 中 的 每 个 样本 x 测试 , KNN 算法 搜索 据 存储 在 内 存 中 。 当 ps 和 Ts 集 太 大 时 ， 它 们 可 能 很 容易 超过 

Ds 集合 中 K 个 最 接近 的 样本 。 因 此 ，KNN 计算 ps 中 所 有 样本 可 用 的 RAM 存储 器 。 
x,, 之 间 的 距离 。 欧 几 里 得 距离 是 用 于 此 目的 最 广泛 使 用 的 度 这 些 缺 点 促使 将 KNN 的 处 理 分 布 在 节点 集群 上 。 在 文献 
。 根 据 计 算出 的 距离 ， 训 练 样本 按 升序 排列 ， 取 大 个 最 近 样 中 ， 可 以 找到 一 系列 在 MapReduce 上 执行 KNN 的 方法 。 虽 然 
本 (neigh, neigh,,...,neigh,) 然后 , 它们 被 用 来 计算 最 主要 的 类 别 — KNN 分 类 器 旨 在 提供 预测 的 类 ， 但 KNN 连接 本 身 会 输出 邻居 
标签 。 的 选择 值 可 能 会 影响 该 技术 的 性 能 和 噪声 容 限 。 尽 管 ”进行 单个 测试 。 因 此 ， 这 些 方法 不 能 用 于 分 类 。 图 3 展示 了 分 
KNN 在 各 种 各 样 的 问题 中 表现 出 色 , 但 缺乏 管理 大 型 TR 数据 ”” 布 式 KNN 的 流程 。 
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设 ps 为 训练 数据 集 , Ts 为 测试 集 , 它们 分 别 由 数量 为 n 和 


t 的 样本 组 成 .每 个 样本 x, 都 是 一 个 多 元 组 cxx, o), 


pl? 


o, H x» 和 个 万 维 空间 确定 。 对 于 ps 集合， 类 别 o 是 已 
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数据 集 (Ds) 归 测试 集 CTs) 归 
一 化 处 理 Cache Ts 。 | 一 化 处 理 Collect 
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| Broadcast(Ts) 
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图 3 分 布 式 KNN 流程 图 
> v ES vL ME A ETo YA 45 S56 Hf SR SR n B 、 
对 于 分 类 任务 〈 也 适用 于 回归 ) ， 现 有 的 方法 比 KNN E 于 在 映射 阶段 逐 行 读 取 测试 数据 。 因 此 ， 这 种 模式 具有 可 扩展 
ry EH 4s P gja ` F E y 一 A zE ] Mt ME Se aT D ES Yh3 WELL Tr 
接 方法 更 简单 ， 因 为 它们 不 需要 自己 提供 邻居 ， 而 只 需要 它们 性 ， 但 其 性 能 可 以 通过 内 存 中 的 解决 方案 进一步 提高 


下 


的 类 。 到 目前 为 止 ， 已 经 提出 了 两 种 主要 方法 ， 他 们 都 侧重 于 3 ”提出 的 方法 
使 用 Map 阶段 将 训练 数据 拆 分 为 m 个 不 相交 的 部 分 。 例 如 ， 

文献 [1 入 提出 了 对 每 个 单独 的 测试 示例 迭代 重复 MapReduce 过 本 文 使 用 Spark 给 出 一 种 用 于 大 数据 分 类 的 替代 分 布 式 
TE (没有 明确 定义 的 reduce 函数 ) ， 然 而 这 在 Hadoop 和 Spark KNN 模型 , 并 将 这 种 方法 表示 为 基于 Spark 框架 的 大 数据 并 行 
中 都 非常 耗 时 。 文 献 [15] 提 出 了 一 种 称 为 MR-KNN 的 分 类 器 ， 多 标签 K 最 近邻 分 类 器 设计 。 当 训练 集 和 测试 集 都 是 大 数据 集 
将 其 中 一 个 MapReduce 过 程 用 来 管理 测试 集 分 类 。Hadoop H ” 时， 本文 将 重点 放 在 减少 KNN 分 类 器 的 运行 时 间 上 。 在 并 行 
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框架 内 计算 KNN 时 ， 许 多 其 他 因素 可 能 会 影响 执行 时 间 ， 例 E. fE map 阶段 结束 后 ， 对 于 测试 样本 + 有 map * K 个 近邻 ， 

如 MapReduce 作业 的 数量 j 或 需要 的 Map 和 Reduce 的 任务 (m 且 所 有 具有 相同 键 的 元 素 都 被 分 组 。 这 个 函数 会 一 个 接 一 个 地 

和 7) 数 量 。 因 此 ， 在 Spark 中 编写 高 效 精确 的 KNN 具有 挑战 处 理 这 个 列表 中 的 每 个 元 素 ， 并 用 大 个 邻居 更 新 结果 列表 

性 ， 并 且 必 须 考 虑 多 个 关键 点 才能 获得 高 效 且 可 扩展 的 模型 。 res ase 

本 节 介绍 了 MapReduce Xt f£, 该 过 程 将 管理 适合 内 存 的 测 由 于 来 自 map 的 矢量 根据 距离 排序 , 所 以 更 新 过 程 变 得 更 

试 数据 子 集 的 分 类 。 因 此 , 这 个 MapReduce 过 程 基于 MR-KNN, 快 。 这 包括 合并 两 个 排序 列表 以 获得 大 的 值 ， 因 此 ， 最 坏 情 况 

区 别 在 于 它 允 许多 个 Reducer， 检 查 运 行 所 需 的 迭代 以 避免 内 下 的 复杂 度 为 O(k) 。 该 函数 逐一 比较 每 个 邻居 的 每 个 距离 值 ， 

存 交 换 ， 并 且 在 Spark 下 实现 。 作 为 MapReduce 模型 ， 这 将 计 ” 从 最 近 的 邻居 开始 。 如 果 距 离 小 于 当前 值 ， 则 使 用 相应 的 值 更 

算 划分 为 两 个 主要 阶段 : Map 和 Reduce. Map 阶段 分 割 训练 数 ” 新 该 位 置 的 类 别 和 距离 ， 否 则 继续 执行 下 面 的 值 。 算 法 2 提供 

据 并 针对 每 个 块 计算 每 个 测试 样本 的 个 最 近邻 居 的 距离 和 相 了 Reduce 操作 的 细节 。 

应 类 别 。 Reduce 阶段 将 每 个 映射 中 个 最 近邻 居 的 距离 聚合 在 

一 起 ， 并 给 出 4 个 最 近邻 居 的 确定 列表 。 最终, 执行 KNN 算法 

中 的 多 数 表决 程序 来 预测 结果 类 别 。 输入 : ansi[(id,distance)], ans2 (id, distance)]; 

3.1 Map 阶段 

首先 假设 训练 集 ps 和 相应 的 测试 样本 子 集 Ts 先前 已 经 从 

HDFS 中 作为 RDD 对 象 读 取 。 因 此 ， 当 训练 数据 集 ps 被 读 取 res =newArray[type(id)][k+1]; 

时 ， 己 经 被 分 制 成 用 户 定义 的 m 个 不 相交 的 子 集 。 每 个 map 

任务 (Map ,Map .Map ) 利用 训练 集 划 分 的 每 个 块 的 样本 来 

处 理子 集 Ds,， 其 中 1<i<m。 因 此 , 每 个 映射 近似 处 理 相 似 数 。 for je{0,1,2,.…,K} 

量 的 训练 实例 。 
为 了 获得 KNN 的 精确 实施 , 输入 测试 集 TS, 不 与 训练 集 一 

起 分 割 , 这 意味 着 Ds, I TS, 都 应 该 完全 适合 内 存 。 在 本 文 所 述 {res( j) = ansl(il).id;il+ — 1) 

的 Spark 实现 中 ， 在 每 个 分 区 用 MapParttion 初始 化 一 个 KNN 

搜索 器 。 与 此 同时 ， 每 个 分 区 将 获取 整个 测试 集 样 本 的 局 部 K 

近邻 。 总 之 ， 对 于 测试 集中 的 每 个 实例 ，Reduce 函数 都 会 根据 之 
每 个 映射 都 会 发 送 多 个 输出 ， 并 人 允许 使 用 多 个 reducer。 每 ”前 描述 的 函数 来 聚合 这 些 值 。 为 了 简化 这 个 过 程 ， 我 们 使 用 

个 分 区 的 结果 数据 以 键 值 对 Key value ) 形式 存在 。key 表示 Spark 的 ReduceByKey (func) 转换 。 

每 个 测 样本 的 编号 ， 而 value 表示 以 键 值 对 id,distance ) 为 


算法 2 分 布 式 Reduce 阶段 过 程 


E: RDD, [(id, Arrary [id ])] 。 


il «— 0;i2 < 0; 


if (ansl(il), distance € ans2(i2).distance) 


else (res( j) = ans2(i2).id;i2- 2 E] 


4 Ss 
元 素 的 近邻 数组 。 当 使 用 的 训练 和 测试 数据 集 非 常 大 时 ， 使 用 
更 多 Reducer 可 能 会 很 有 用 。 算 法 1 描述 了 Map 阶段 的 主要 过 41 实验 配置 
程 。 其 中 file, 表示 训练 集 文件 ， je 表示 测试 集 文件 ， 在 这 个 实验 研究 中 ， 我 们 将 使 用 四 个 大 数据 分 类 数据 集 ， 
RDD[id, List (id, distance)]] 表示 样本 近邻 集合 。 PokerHand!^, NUS-WIDE-bow!7l, Susy5/fl AS At, 
WEI JM KNN Map NEE 我 们 随机 抽样 所 述 数 据 集 以 获得 各 类 别 样本 的 平衡 。 这 些 数据 
集 除了 包含 大 量 实例 之 外 ， 它 具有 相对 较 多 的 特征 ， 因 此 可 以 
输入 : file.» file, 看 到 这 个 事实 如 何 影响 所 提出 的 模型 。 
fs RDD[ Lis [Gd distance] | de 1 总 结 了 这 些 数 据 集 的 属性 ， 如 样本 数量 、 特 征 数量 和 
' Í 标签 数量 信息 。 
Ds <+ textFile( file „„#map).map (normalize). 表 1 数据 集 描述 
map(LinearNNSearch).cache; 数据 集 样本 数量 特征 数量 标签 数量 
Ts ¢ textFile( file,.).map(normalize). Susy 5.000,000 18 32 
map(key, value).collect; Higgs 11.000.000 28 42 
arr «— sc.broadcast (Ts); PokerHand 1,025,010 10 60 
NUS-WIDE-bow 269,648 500 81 
er 对 于 实验 研究 ， 所 有 数据 集 均 使 用 5 折 交 叉 验 证 5-fev) 
3.2 Reduce 阶段 方案 进行 分 区 。 这 意味 着 数据 集 被 分 成 5 个 子 集 , 每 子 集中 80% 
Reduce 阶段 包括 从 map 阶段 提供 的 7S, 中 的 上 个 最 近邻 的 作为 训练 样本 ， 其 余 的 为 测试 实例 。 对 于 每 个 子 集 ，kNN 算 


mL: 
hh 


ChinaXiv 合 作 期 刊 
È om, $: Spark 框架 结合 分 布 式 KNN 分 类 器 的 网 络 大 数据 分 类 处 理 方法 
法 计算 Ts 的 最 近邻 居 。 在 呈现 的 MapReduce 方案 中 ， 数 据 集 H: pase_line 是 顺序 版 本 所 花费 的 总 运行 时 间 ， 而 
的 实例 数量 和 使 用 的 Map。 数 量 有 直接 关系 , 因此 Map 数量 越 parallel _time 是 使 用 并 行 版 本 后 所 花费 的 总 运行 时 间 。 
i diui dbi m zx (基于 标签 的 微观 p 值 ) 表 示 基 于 标签 的 精确 度 ， 
测试 实验 都 在 由 16 个 节点 组 成 的 集群 上 执行 : 主 节点 和 


ju ja ja je 


16 个 计算 节点 。 计 算 节 点 采用 2x Intel Xeon CPU E5-2620 处 理 


器 ， 所 使 用 的 软件 及 其 配置 的 具体 细节 如 下 : 其 中 : Tp、Fp、TN、FN 是 混淆 矩阵 中 真实 的 正 例 、 
a) MapReduce implementations: Hadoop 2.6.0-cdh5.4.2 and 误 判 的 正 例 、 真 实 的 反例 ， 误 判 的 反例 。 

Spark 1.5.1 4.3 与 顺序 版 本 KNN 方法 的 比较 
b) Maximum number of map tasks: 256 本 节 将 本 文 方法 与 顺序 版 本 KNN 方法 进行 比较 ， 其 是 基 
c) Maximum number of reduce tasks: 128 于 Hadoop MapReduce 框架 。 为 此 ， 本 文 使 用 NUS-WIDE-bow 
d) Maximum memory per task: 2GB. 和 Higgs 数据 集 。NUS-WIDE-bow 和 Higgs 数据 集 是 计算 机 视 
e) Operating System: Cent OS 6.5 觉 领域 常用 的 数据 集 。 在 这 些 数据 集中 ， 本 文 方 法 只 需要 进行 


请 注意 ， 可 用 内 核 的 总 数 是 192， 通 过 使 用 超 线程 技术 将 。 ”一 次 迭代 ， 因 为 测试 数据 集 适合 每 个 映射 的 内 存 ， 并且 reducer 
变 为 384。 因 此 ， 当 算法 探索 大 于 384 的 映射 时 ， 不 能 期 望 线 ”的 数量 也 被 固定 为 1。 


性 加 速 ， 因 为 会 有 排队 的 任务 。 对 于 这 些 情况 ， 本 文 将 重点 分 首先 ， 本 文 在 这 些 数据 集 上 运行 KNN 的 顺序 版 本 作为 基 
y= 析 Map 和 Reduce。 准 。 这 个 顺序 版 本 逐 行 读 取 测 试 集 ， 作 为 避免 存储 器 问题 的 直 
> 4.2 性 能 度量 接 解 决 方案 。 表 2 显示 了 由 标准 顺序 KNN 算法 随 着 邻居 数量 
: 本 文 用 以 下 三 种 性 能 指标 评估 提出 方法 性 能 和 可 扩展 性 : 的 不 同 所 获得 的 运行 时 间 (以 秒 为 单位 ) 和 平均 精度 的 结果 (其 
a) 汉 明 损 失 。 用 以 表示 误 分 标签 平均 个 数 。 算 法 性 能 越 好 ， 中 Map 数量 设置 为 32) 。 
其 汉 明 损失 就 越 小 。 表 2 顺序 kNN 的 性 能 表现 
os(D- 工 各 Co T" 数据 集 邻居 数量 运行 时 间 平均 精度 
Du q 1 7989.34 0.67 
其 中 : 人 是 两 个 集合 之 间 的 对 称 差分 ，g 是 标签 向 量 的 长 3 7972.93 0.62 
度 ， 表示 多 标签 分 类 器 。 MEA 5 8076.26 0.64 
b) 运行 时 间 。 根 据 训 练 数据 集 对 给 定 的 测试 集 进行 分 类 ， 7 8023.27 0.76 
并 记录 KNN 分 类 器 花费 的 总 时 间 。 并 行 方 法 的 总 运行 时 间 包 括 1 82627.36 0.73 
读 取 和 分 配 所 有 数据 ， 以 及 计算 个 最 近邻 居 和 多 数 投票 。 3 89023.34 0.74 
o 加 速 比 。 为 了 证 明 并 行 算法 与 算法 的 顺序 执行 版 本 的 效 5 82334.92 0.71 
率 ， 测 量 了 顺序 版 本 和 并 行 版 本 的 运行 时 间 。 根 据 Amdahl 定 7 83261.35 0.72 
律 20， 在 完全 平行 的 环境 中 ， 理 论 加 速 的 最 大 值 与 使 用 的 核心 表 3 总 结 了 k = 1 时 的 两 种 方法 获得 的 结果 (其 中 邻居 数 
数量 相同 。 量 设置 为 1) 。 它 显示 了 不 同 Map 数量 的 平均 总 时 间 和 相对 于 
Speedup = A auc D n 如 前 所 述 ， 这 两 种 方法 都 对 应 于 KNN 
表 3 顺序 KNN 和 本 文 方法 所 得 到 的 结果 
KA -— 顺序 KNN 本 文 方法 
平均 运行 时 间 Cs) 平均 运行 时 间 Cs) 节省 提升 GU 
128 1978.26 311.24 1667.02 
NUS-WIDE-bow 64 3998.23 467.35 3530.88 
32 7989.34 992.42 6996.92 
256 11365.96 1509.43 9856.53 
Higgs 128 22434.52 3163.92 19270.60 
64 43434.44 6132.61 37301.83 
根据 实验 结果 ， 做 出 以 下 分 析 : 本 KNN 相 比 ， 本 文 方法 的 并 行 KNN 的 线 速度 提升 速度 更 快 。 


正如 在 表 2 中 可 以 看 到 的 那样 ， 在 这 两 个 数据 集中 ,顺序 。” 这 是 因为 使 用 了 内 存 中 的 数据 结构 ， 这 使 得 我 们 可 以 避免 从 
版 本 的 KNN 方法 所 需 的 运行 时 间 相当 高 。 然 而 ， 表 3 Wo] HDFS 逐 行 读 取 测试 数据 。 
随 着 Map 数量 的 增加 ,这 两 种 方法 的 运行 时 间 减 少 。 与 顺序 版 比较 顺序 版 本 KNN 和 本 文 并 行 KNN， 结 果 显 示 本 文 基于 


录用 稿 


Spark 的 并 行 KNN 比 基 于 Hadoop 框架 的 顺序 版 本 KNN 运行 


时 


间 减 少 了 6-8 fit. 


4.4 与 其 他 方法 的 性 能 比较 


法 
pa 
他 
此 


时 


YA 


与 MR-KNN 方法 进行 比较 ， 


在 基于 MapReduce 的 现 有 分 布 式 kNN 模型 中 ， 将 本 文 方 
其 是 基于 Hadoop MapReduce f 
。MR-KNN 方法 最 初 是 为 其 他 目的 而 设计 的 ， 而 不 是 分 类 。 
们 还 需要 增加 数据 大 小 ， 甚 至 需要 平方 数量 的 Map 任务 。 医 
， 该 方案 理论 复杂 度 远 高 于 所 提出 的 技术 。 
了 本 文 方法 性 能 评估 结果 , 表 5 给 出 了 MR-KNN 
法 性 能 评估 结果 , 其 中 Map 与 邻居 数量 分 别 设置 为 128 和 1。 
中 可 以 看 出 ， 本 文 方法 取得 了 较 低 的 汉 明 损失 ， 较 少 的 运行 
间 ， 而 且 在 加 速 比 和 FA 两 个 指标 数据 也 同样 优 于 对 比方 
。 证 明了 本 文 方法 的 有 效 性 。 

表 4 本 文 方法 性 能 评估 结果 


IHI 


数据 集 汉 明 损失 ”运行 时 间 /s ” 加 速 比 jJ 
Susy 0.025 4163.52 0.28 0.434 
Higgs 0.022 3163.92 0.34 0.583 
PokerHand 0.018 1134.23 0.31 0.463 
NUS-WIDE-bow 0.021 311.24 0.26 0.341 
表 5 MR-KNN 方法 性 能 评估 结果 
数据 集 汉 明 损失 ”运行 时 间 /s 。” 加 速 比 F liero 
Susy 0.034 6652.13 0.25 0.367 
Higgs 0.032 5298.26 0.32 0.522 
PokerHand 0.019 2214.22 0.30 0.387 
NUS-WIDE-bow 0.024 638.23 0.24 0.323 
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法 


nnd 


的 


方法 的 有 效 性 。 
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不 可 行 。 


集合 进行 聚合 ， 通 过 最 大 化 后 验 概率 输出 待 预测 样本 的 目 
4 Z 


结束 语 


K 最 近邻 分 类 器 是 数据 挖掘 中 一 种 简单 而 有 效 的 著名 方 

。 由 于 时 间 和 内 存 的 限制 ， 此 模型 在 大 数据 领域 的 实际 应 用 
在 这 项 工作 中 ， 本 文 提 供 了 基于 Apache Spark 框架 
行 多 标签 K 最 近邻 分 类 器 设计 方法 。 映射 阶段 计算 
据 分 割 中 的 上 个 最 近邻 居 ， 进 一 步 在 reduce 阶段 根 
阶段 的 结果 确定 最 终 的 K 近邻 ,最 后 并 行 地 对 近邻 的 标 
i 标 

合 。 在 四 个 大 数据 分 类 数据 集 的 测试 结果 也 验证 了 提出 
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